1 research outputs found

    Nuevos retos en clasificaci贸n asociativa: Big Data y aplicaciones

    Get PDF
    La clasificaci贸n asociativa surge como resultado de la uni贸n de dos importantes 谩mbitos del aprendizaje autom谩tico. Por un lado la tarea descriptiva de extracci贸n de reglas de asociaci贸n, como mecanismo para obtener informaci贸n previamente desconocida e interesante de un conjunto de datos, combinado con una tarea predictiva, como es la clasificaci贸n, que permite en base a un conjunto de variables explicativas y previamente conocidas realizar una predicci贸n sobre una variable de inter茅s o predictiva. Los objetivos de esta tesis doctoral son los siguientes: 1) El estudio y el an谩lisis del estado del arte de tanto la extracci贸n de reglas de asociaci贸n como de la clasificaci贸n asociativa; 2) La propuesta de nuevos modelos de clasificaci贸n asociativa as铆 como de extracci贸n de reglas de asociaci贸n teniendo en cuenta la obtenci贸n de modelos que sean precisos, interpretables, eficientes as铆 como flexibles para poder introducir conocimiento subjetivo en 茅stos. 3) Adicionalmente, y dado la gran cantidad de datos que cada d铆a se genera en las 煤ltimas d茅cadas, se prestar谩 especial atenci贸n al tratamiento de grandes cantidades datos, tambi茅n conocido como Big Data. En primer lugar, se ha analizado el estado del arte tanto de clasificaci贸n asociativa como de la extracci贸n de reglas de asociaci贸n. En este sentido, se ha realizado un estudio y an谩lisis exhaustivo de la bibliograf铆a de los trabajos relacionados para poder conocer con gran nivel de detalle el estado del arte. Como resultado, se ha permitido sentar las bases para la consecuci贸n de los dem谩s objetivos as铆 como detectar que dentro de la clasificaci贸n asociativa se requer铆a de alg煤n mecanismo que facilitara la unificaci贸n de comparativas as铆 como que fueran lo m谩s completas posibles. Para tal fin, se ha propuesto una herramienta de software que cuenta con al menos un algoritmo de todas las categor铆as que componen la taxonom铆a actual. Esto permitir谩 dentro de las investigaciones del 谩rea, realizar comparaciones m谩s diversas y completas que hasta el momento se consideraba una tarea en el mejor de los casos muy ardua, al no estar disponibles muchos de los algoritmos en un formato ejecutable ni mucho menos como c贸digo abierto. Adem谩s, esta herramienta tambi茅n dispone de un conjunto muy diverso de m茅tricas que permite cuantificar la calidad de los resultados desde diferentes perspectivas. Esto permite conseguir clasificadores lo m谩s completos posibles, as铆 como para unificar futuras comparaciones con otras propuestas. En segundo lugar, y como resultado del an谩lisis previo, se ha detectado que las propuestas actuales no permiten escalar, ni horizontalmente, ni verticalmente, las metodolog铆as sobre conjuntos de datos relativamente grandes. Dado el creciente inter茅s, tanto del mundo acad茅mico como del industrial, de aumentar la capacidad de c贸mputo a ingentes cantidades de datos, se ha considerado interesante continuar esta tesis doctoral realizando un an谩lisis de diferentes propuestas sobre Big Data. Para tal fin, se ha comenzado realizando un an谩lisis pormenorizado de los 煤ltimos avances para el tratamiento de tal cantidad de datos. En este respecto, se ha prestado especial atenci贸n a la computaci贸n distribuida ya que ha demostrado ser el 煤nico procedimiento que permite el tratamiento de grandes cantidades de datos sin la realizaci贸n de t茅cnicas de muestreo. En concreto, se ha prestado especial atenci贸n a las metodolog铆as basadas en MapReduce que permite la descomposici贸n de problemas complejos en fracciones divisibles y paralelizables, que posteriormente pueden ser agrupadas para obtener el resultado final. Como resultado de este objetivo se han propuesto diferentes algoritmos que permiten el tratamiento de grandes cantidades de datos, sin la p茅rdida de precisi贸n ni interpretabilidad. Todos los algoritmos propuestos se han dise帽ado para que puedan funcionar sobre las implementaciones de c贸digo abierto m谩s conocidas de MapReduce. En tercer y 煤ltimo lugar, se ha considerado interesante realizar una propuesta que mejore el estado del arte de la clasificaci贸n asociativa. Para tal fin, y dado que las reglas de asociaci贸n son la base y factores determinantes para los clasificadores asociativos, se ha comenzado realizando una nueva propuesta para la extracci贸n de reglas de asociaci贸n. En este aspecto, se ha combinado el uso de los 煤ltimos avances en computaci贸n distribuida, como MapReduce, con los algoritmos evolutivos que han demostrado obtener excelentes resultados en el 谩rea. En particular, se ha hecho uso de programaci贸n gen茅tica gramatical por su flexibilidad para codificar las soluciones, as铆 como introducir conocimiento subjetivo en el proceso de b煤squeda a la vez que permiten aliviar los requisitos computacionales y de memoria. Este nuevo algoritmo, supone una mejora significativa de la extracci贸n de reglas de asociaci贸n ya que ha demostrado obtener mejores resultados que las propuestas existentes sobre diferentes tipos de datos as铆 como sobre diferentes m茅tricas de inter茅s, es decir, no s贸lo obtiene mejores resultados sobre Big Data, sino que se ha comparado en su versi贸n secuencial con los algoritmos existentes. Una vez que se ha conseguido este algoritmo que permite extraer excelentes reglas de asociaci贸n, se ha adaptado para la obtenci贸n de reglas de asociaci贸n de clase as铆 como para obtener un clasificador a partir de tales reglas. De nuevo, se ha hecho uso de programaci贸n gen茅tica gramatical para la obtenci贸n del clasificador de forma que se permite al usuario no s贸lo introducir conocimiento subjetivo en las propias formas de las reglas, sino tambi茅n en la forma final del clasificador. Esta nueva propuesta tambi茅n se ha comparado con los algoritmos existentes de clasificaci贸n asociativa forma secuencial para garantizar que consigue diferencias significativas respecto a 茅stos en t茅rminos de exactitud, interpretabilidad y eficiencia. Adicionalmente, tambi茅n se ha comparado con otras propuestas espec铆ficas de Big Data demostrado obtener excelentes resultados a la vez que mantiene un compromiso entre los objetivos conflictivos de interpretabilidad, exactitud y eficiencia. Esta tesis doctoral se ha desarrollado bajo un entorno experimental apropiado, haciendo uso de diversos conjunto de datos incluyendo tanto datos de peque帽a dimensionalidad como Big Data. Adem谩s, todos los conjuntos de datos usados est谩n publicados libremente y conforman un conglomerado de diversas dimensionalidades, n煤mero de instancias y de clases. Todos los resultados obtenidos se han comparado con el estado de arte correspondiente, y se ha hecho uso de tests estad铆sticos no param茅tricos para comprobar que las diferencias encontradas son significativas desde un punto de vista estad铆stico, y no son fruto del azar. Adicionalmente, todas las comparaciones realizadas consideran diferentes perspectivas, es decir, se ha analizado rendimiento, eficiencia, precisi贸n as铆 como interpretabilidad en cada uno de los estudios.This Doctoral Thesis aims at solving the challenging problem of associative classification and its application on very large datasets. First, associative classification state-of-art has been studied and analyzed, and a new tool covering the whole taxonomy of algorithms as well as providing many different measures has been proposed. The goal of this tool is two-fold: 1) unification of comparisons, since existing works compare with very different measures; 2) providing a unique tool which has at least one algorithm of each category forming the taxonomy. This tool is a very important advancement in the field, since until the moment the whole taxonomy has not been covered due to that many algorithms have not been released as open source nor they were available to be run. Second, AC has been analyzed on very large quantities of data. In this regard, many different platforms for distributed computing have been studied and different proposals have been developed on them. These proposals enable to deal with very large data in a efficient way scaling up the load on very different compute nodes. Third, as one of the most important part of the associative classification is to extract high quality rules, it has been proposed a novel grammar-guided genetic programming algorithm which enables to obtain interesting association rules with regard to different metrics and in different kinds of data, including truly Big Data datasets. This proposal has proved to obtain very good results in terms of both quality and interpretability, at the same time of providing a very flexible way of representing the solutions and enabling to introduce subjective knowledge in the search process. Then, a novel algorithm has been proposed for associative classification using a non-trivial adaptation of the aforementioned algorithm to obtain the rules forming the classifier. This methodology is also based on grammar-guided genetic programming enabling user not only to constrain the form of the rules, but the final form of the classifier. Results have proved that this algorithm obtains very accurate classifiers at the same time of maintaining a good level of interpretability. All the methodologies proposed along this Thesis has been evaluated using a proper experimental framework, using a varied set of datasets including both classical and Big Data dataset, and analyzing different metrics to quantify the quality of the algorithms with regard to different perspectives. Results have been compared with state-of-the-art and they have been verified by means of non-parametric statistical tests proving that the proposed methods overcome to existing approaches
    corecore